﻿<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>VietOCR - Tesseract OCR için Java GUI arayüzü </title>
</head>
<body>
    <div class="Section1">
        <h2 align="center">VietOCR</h2>
        <h3>AÇIKLAMA</h3>
        <p><a href="http://vietocr.sourceforge.net"> VietOCR </a>, için bir Java arayüzüdür.
<a href="https://github.com/tesseract-ocr"> Tesseract OCR motoru </a>, sağlayarak
ortak görüntü formatları için karakter tanıma desteği ve çok sayfalı görüntüler. Bu
programı düzenli olarak karşılaşılan hataları düzeltmeye yardımcı olan postprocessing'e sahiptir.
OCR işlemi, sonuç üzerindeki doğruluğunu artırır. Program ayrıca
bir konsol uygulaması olarak, komut satırından çalıştırılabilir.</p>
        <p>Batch processing is now supported. The program monitors a watch folder for new image
            files, automatically processes them through the OCR engine, and outputs recognition
            results to an output folder.</p>
        <h3>SİSTEM GEREKSİNİMLERİ</h3>
        <p><a href="http://www.oracle.com/technetwork/java/javase/downloads/index.html">Java Runtime
                Environment 8</a> veya sonrası. On Windows, <a href="https://support.microsoft.com/en-us/help/2977003/the-latest-supported-visual-c-downloads">Microsoft Visual C++ 2015-2019 Redistributable Package</a> is also required.</p>
        <h3>KURULUM</h3>
        <p>Tesseract Windows executable is bundled with the program. Additional <a href="https://github.com/tesseract-ocr/tessdata">
                language data packs</a> for Tesseract, whose names start with ISO639-3 codes,
            should be placed into the <code>tessdata</code> subdirectory.</p>
        <p>Linux için Tesseract ve dil veri paketleri Grafikler (universe)'de deposunda bulunur.
Synaptic'i kullanarak veya aşağıdaki komutu kullanarak yüklenebilirler:</p>
        <blockquote>
            <p><code>sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie</code></p>
        </blockquote>
        <p>The files will be placed in <code>/usr/bin</code> and <code>/usr/share/tesseract-ocr/tessdata</code>,
            respectively. On the other hand, if Tesseract is built and installed from the <a href="https://github.com/tesseract-ocr/tesseract/wiki">source</a>,
            they will be placed in <code>/usr/local/bin</code> and <code>/usr/local/share/tessdata</code>.
            You can also let VietOCR know the location
            of <code>tessdata</code> via the environment variable <code>TESSDATA_PREFIX</code>:</p>
        <blockquote>
            <p><code>export TESSDATA_PREFIX=/usr/local/share/</code></p>
        </blockquote>
        <p>Diğer platformlar için lütfen <a href="https://github.com/tesseract-ocr/tesseract/wiki"> 
sayfasına bakın. Tesseract Wiki </a> sayfası.</p>
        <p>VietOCR also provides support for downloading and installing selected language packs
            via <em>Download Language Data</em> menu item. Depending on the location of the
            <code>tessdata</code> folder, you may be required to run the program as root or
            admin to be able to install the downloaded data into the folder if it is inside
            a system folder, such as in <code>/usr</code> on Linux or <code>C:\Program Files</code>
            on Windows.</p>
        <p>Windows'da tarama işlemi,
Windows Image 
			Acquisition Library v2.0
desteği ile taranmıştır.</p>
        <p>Linux'ta, tarama için SANE paketlerinin kurulumu gerektirir</p>
        <blockquote>
            <p><code>sudo apt-get install libsane sane sane-utils libsane-extras xsane</code></p>
        </blockquote>
        <p>PDF desteği<a href="http://www.ghostscript.com/">GPL Ghostscript</a> aracılığıyla mümkündür.</p>
        <p>Spellcheck functionality is available through Hunspell, whose <a href="http://wiki.services.openoffice.org/wiki/Dictionaries">
                dictionary</a> files (<code>.aff</code>, <code>.dic</code>) should be placed
            in <code>dict</code> folder of VietOCR. <code>user.dic</code> is an UTF-8-encoded
            file which contains a list of custom words, one word per line.</p>
        <p>Linux'ta Hunspell ve sözlükleri Synaptic veya <code> apt </code> tarafından kurulabilir,  
aşağıdaki gibi:</p>
        <blockquote><code>sudo apt-get install hunspell hunspell-en-us</code></blockquote>
        <h3>TALİMATLAR</h3>
        <p>Programı başlatmak için:</p>
        <blockquote>
            <p><code>java -jar VietOCR.jar</code></p>
        </blockquote>
        <p><b> <u> Not &lt;/ u&gt; &lt;/ b&gt;: Bellek yetersiz sorunları yaşarsanız, JAR dosyasını kullanmak yerine <code> ocr &lt;/ code&gt; 
komut dosyasını çalıştırın.</code></u></b></p>
        <p>The Vietnamese language data were generated for Times New Roman, Arial, Verdana,
            and Courier New fonts. Therefore, the recognition would have better success rate
            for images having similar font glyphs. OCRing images that have font glyphs look
            different from the supported fonts generally will require <a href="https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract">
                training</a> Tesseract to create another language data pack specifically for
            those typefaces. Language data for some VNI and TCVN3 (ABC) fonts have also been
            bundled in latest versions.</p>
        <p>OCR'lenecek görüntüler en az 200 DPI çözünürlükte taranmalıdır (nokta başına
Inç) 400 DPI'ye tek renkli (siyah beyaz) veya gri tonlamalı olarak ayarlayın. Daha yüksek tarama
daha iyi tanıma doğruluğu ile sonuçlanmayacaktır, şu anda
Vietnamca için% 97'den daha yüksek olabilir ve Tesseract'in bir sonraki sürümü artırabilir
ve daha da ileri gidebilir. Buna rağmen, gerçek tanıma oranı halen taranan görüntünün kalitesine büyük ölçüde bağlıdır.
Tarama için tipik ayarlar 300 DPI ve 1 bpp'dir (bit
Piksel başına) siyah beyaz veya 8 bpp gri tonlamalı sıkıştırılmamış TIFF veya PNG biçimidir.</p>
        <p>The <em>Screenshot Mode</em> offers better recognition rates for low-resolution
            images, such as screen prints, by rescaling them to 300 DPI.</p>
        <p>In addition to the built-in text postprocessing algorithm, you can add your own
            custom text replacement scheme via a UTF-8-encoded tab-delimited text file named <code>x.DangAmbigs.txt</code>,
            where x is the ISO639-3 language code. Both plain and Regex text replacements are supported.</p>
        <p>You can put init-only and non-init control parameters in <code>tessdata/configs/tess_configs</code>
            and <code>tess_configvars</code> files, respectively, to modify Tesseract&#39;s
            behaviour.</p>
        <p>Bazı dahili araçlar, daha düzgün bir OCR için birkaç görüntüyü veya PDF dosyalarını tek bir sayfaya birleştirmeyi sağlar
veya bellek yetersizliğine neden olan çok fazla sayfa içeriyorsa, TIFF veya PDF dosyasını daha küçük şekilde bölebilmeyi sağlar</p>
        <h3>POSTPROCESSING</h3>
        <p>The recognition errors can generally be classified into three categories. Many of
            the errors are related to the letter cases — for example: hOa, nhắC — which can
            be easily corrected by popular Unicode text editors. Many other errors are a result
            of the OCR process, such as missing diacritical marks, wrong letters with similar
            shape, etc. — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. These can
            also be easily fixed by spell checker programs. The built-in Postprocessing function
            can help correct many of the aforementioned errors.</p>
        <p>The last category of errors is the most difficult to detect because they are semantic
            errors, which means that the words are valid entries in the dictionary but are wrong
            in the context — e.g., tinh – tình, vân – vấn. These errors require the editor to
            read though and manually correct them according to the original image.</p>
        <p>OCR hataları ilk iki kategoride nasıl çözüleceği ile ilgili talimatlar aşağıda verilmiştir
            yerleşik işlevini kullanarak:</p>
        <ol style="margin-top: 0in" start="1" type="1">
<li>Group lines. The lines need to be grouped to the paragraph they belong, as being
                OCRed, each line becomes a separate 1-line paragraph. Use <i>Remove Line Breaks</i>
                function under <i>Format</i> menu. Note that this operation may not be needed for
                poems.</li>
            <li>Select <i>Change Case</i>, also under <i>Format</i> menu, and choose <i>Sentence
                case</i> to correct most of the letter case errors. Locate and fix the rest of remaining
                letter case errors.</li>
            <li>Entegre <i>Yazım Denetimi</i> kullanarak yanlış hataları düzeltin.</li>
        </ol>
<p>Yukarıdaki işlem sayesinde, ortak hataların çoğunu ortadan kaldırabilirsiniz.
Geriye kalan semantik hatalar azdır ancak eğer hatasız bir döküman istenirse
orijinal taranan belgede gerekli düzenlemeleri yapmak için  insan elinin değmesi gerekir.</p>
        <p>Herhangi bir sorunuz varsa, lütfen bildirin <a href="http://sourceforge.net/projects/vietocr/forums">
                VietOCR Forumu</a>.</p>
        <hr>
</div>
</body>
</html>
